ここ で は , マル チ プ ロ セ ッ サ で 実現 し た H.264 ビデ オ ・ デ コ 
ー ダ LSI の 設計 事例 を 紹介 する . 二 つ の プロ セッ サ ・ コ ア を 使 
用 し , ソフ トウ ェ ア ・ デ コー ド を 行っ て いる . へ テロ ジニ アス 
な 機能 分 割 型 で 。 コン フィ ギャ ヤラ ブル ・ プ ロ セ ッ サ ・ コ ア を 用 
いて いる . 要求 性 能 を 実現 する た め に , ユー ザ 拡 張 命令 や 独自 
の オン チッ プ ・ バ ス を 活用 し て いる . (編集 部 ) 


2005 年 11 月 に 開催 され 村 マイ クロ プロ セッ サ フォ ー 
ラム ジャ パン 2005」 に お いて , 筆者 ら は マル チ プ ロ セ ッ サ 
構成 の HI264 ビ デオ ・ デ コー ダ に つい て 発表 し まし た . 本 
稿 で は , その ビデ オ ・ デ コー ダ を も と に , マル チ プ ロ セ ッ 
サ 構 成 マル チコ ア ) の シス テム LSI を どの よう に 設計 し て 
いく か に 焦点 を 当て て 解説 し ます . 


1 マルチ プロ セッ サ ・ コ ア ASIC 時 代 の 


到来 


LSI チ ッ プ 上 に マイ クロ プロ セッ サ を 搭載 する こと は , 
新しい 考え か た で は あり ませ ん . CMOS プロ セス が 進化 し , 
ハー ド ・ ワ イヤ ー ド 論理 の チッ プ と それ を 制御 する プロ セ 
ッ サ が 一 つの LSI チ ッ プ に 集約 され る よう に な り ま し た . 
最近 で は , DSP コ ア と CPU コア を 搭載 し た LSI が 携帯 電 
話 に 組み 込ま れ て いま す . 


信 機能 分 割 と デー タ 分 割 
マル チ プ ロ セ ッ サ 構成 の シス テム LSI 設計 に お いて , プ 
ロ セ ッ サ の 使い か た か ら ア ー キ テク チャ を 見 る と , 


| _ 


268 て 


林原 朋 成 


e 機能 分 割 
e デー タ 分 割 
e 機能 ・ デ ー タ 分割 
の 3 通り が 考え られ ます . 

機能 分 割 と は , 図 1 に 示す よう に, 設計 する シス テム 仕 
様 を 機能 的 に 切り 分 け , 各 プ ロ セ ッ サ に 割り 振る 方 法 で す . 
携帯 電話 向け な どの シス テム LSI の 多く は , 機能 分 割 タイ 
プ に 相当 し ます . 例え ば , シス テム を 制御 する プロ セッ サ 
と デー タ を 処理 する DSP を , 一 つの LSI に まとめ た よう な 
構成 で す . 

デー タ 分 割 と は , デー タ の ある か た まり を 複数 の プロ セ 
ッ サ で 同時 に 処理 する こと で , 処理 能力 を 高め る と いう よ 


ミー 中 識 剖 セ ー す ささ ーッ > 


M 


異な る プロ グラ ミン グ 手 法 , イン ター フェ ー ス , 開発 環境 な ど 


図 1 機能 分 割 型 マ ル チ プ ロ セ ッ サ LSI 

シス テム 制御 , オーデ ィ オ 処理 , ビデ オ 処 理 , グラ フィ ックス 表示 と 機能 的 
に 切り 分 け , 各 プ ロ セ ッ サ に 割り 振る . 機能 ご と に アー キテ クチ ャ が 異な る 
プロ セッ サ が 使わ れる 場合 が 多い . 


異な る アー キテ クチ ャ に な る 場合 が 多い . 較 』 


マル チ プ ロ セ ッ サ , H.264, 機能 分 割 , デー タ 分 割 , ホモ ジニ アス , へ テロ ジニ アス , オン チッ プ , ネッ トワ ー ク , 


コン フィ ギャ ラブ ル ・ プ ロ セ ッ サ , Xtensa 
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スラ イス と いう レベ ル で 凶 


デー タ 分割. 凶 


図 2 各 ス ライ ス は 並列 処理 図 


デー タ 分 割 型 マ ル チ プ ロ セ ッ サ LSI 

高 精細 テレ ビ ( HDTV) デコ ー ダ の 例 を 示す . 
1 本 の HDTV ビ ッ ト ・ ス トリ ー ム , も し く は 
3 本 の 標準 テレ ビ ( SDTV) ビッ ト ・ ス トリ ー 
ム を 同時 に デコ ー ド 可能 な 構成 で ある . 3 個 
の プロ セッ サ を それ ぞ れ 独立 し た MPEG デコ 
ー ダ と し て 設計 し た . HDTV ビ ッ ト ・ ス トリ 
ー ム で は , 一 つの プロ セッ サ を マス タ と し , 
スラ イス ・ レ ベル の デー タ を 各 プ ロ セ ッ サ の 
MPEG デ コー ダ で 処理 させ る . SDTV ビ ッ 
ト ・ ス トリ ー ム は 一 つの プロ セッ サ で 処理 で 
きる の で , 本 LSI で は 三 つ の ビッ ト ・ ス トリ 
ー ム を 同時 に デコ ー ド で きる . 


仕様 書 較 


例え ば 図 


較 
機能 分 割 凶 

ビデ オ ・ デ コー ダ 図 

3 次 元 グ ラフ ィ ッ クス 較 
IEEE 802.11 と MP3 オ ー デ ィ オ 還 


較 
再 機能 分 割 図 
3 次 元 グ ラフ ィ ッ クス 
ピク セル 演算 図 
ジオ メト リ 演 算 図 


提 , 264/MPEG ビ デオ 復号 区 
MP3 オ ー デ ィ オ 復号 較 | 
3 次 元 グ ラフ ィ ッ クス 図 | 機能 分 7 LT 
IEEE 802.11 較 デー タ 分 割 ? 較 
... 罰 


ー タ 分割 図 
ビデ オ ・ デ コー ド を デー タ 分 割 


並行 し て 図 

仕様 を 満た す サマ ル チ プ ロ セ ッ サ 構成 は 図 
容易 さ 

1 の アー キテ クチ ャ 設計 図 

。 デ ー タ 移動 総量, 遅延) の 検討 較 | 


1) ホモ ジニ アス , へ テロ ジニ アス 町 
e 拡張 翌 将来 へ の 布陣 ) 較 
な ど , 総合 的 に 検討 図 2) デー タ 移動 の 検討 図 


ネッ トワ ー ク 設計 図 


図 3 マル チ プ ロ セ ッ サ LSI 設計 の 検討 点 


ピク チャ ・ レ ベル 呈 2 レベ ル 陸 | ピク チャ ・ レ ベル 呈 


全体 が 協調 し て HDTV レ ベル の ピク チャ ・ デ コー ダ に な る 較 


MPEG-2 ビデ ポ HDTV): 図 
1 ピク チャ は 複数 の スラ イス で 構成 較 


MPEG ビ デオ ・ デ ー タ ・ レ イヤ 構成 ) 較 
シー ケン ス 図 
ト |- いく つか の GOR group of pictures ) 
いく つか の ピク チャ 図 

いく つか の スラ イス 図 一 一 一 
いく つか の マク ロブ ロッ ク 較 


ト いく つか の ブロ ッ ク 図 一 


ルー プ 図 


デコ ー ド の メイ ン ・ 


e 機能 分 割 的 アプ ロー チ 例 図 
デコ ー ド の メイ ン ・ ル ー プ を 複数 の プロ セッ サ で 構成 較 
( デコ ー ド ・ パ イプ ライ ン を マル チ プ ロ セ ッ サ で 構成 ) 図 
e デー タ 分割 的 アプ ロー チ 例 図 
複数 の スラ イス を 複数 の プロ セッ サ で 同時 処理 較 


HDTV デ コー ダ を 例 に , 検討 点 を 示し て いる . ピク チャ , GOP, シー ケン ス の 各 レ ベル は , デコ ー ド 処理 上 クリ ティ カル で は な い の で 除外 し て いる . 


うな 方 法 で す . 図 2 に は , 高 精 細 テ レビ ( HDTV: high 
definition television) の MPEG で 2 ビデ オ ・ デ コー ダ の 例 を 示 
し て いま す . ここ で は , スラ イス と いう デー タ ・ セ ッ ト を 
三 つ の プロ セッ サ に 割り 振っ て いま す . も ちろ ん , HDTV 
の MPEG2 ビ デオ ・ デ コー ダ を 処理 フロ ー に 従っ て 機能 分 
割 す る こと も 可能 で す . 実際 に は , 図 3 に 示す よう に , シ 
ステ ム 仕 様 に よっ て 適切 な 構成 を 見 つけ る 必要 が あり ます . 


但 ホモ ジニ アス と へ ヘテロ ジニ アス 
マル チ プ ロ セ ッ サ ・ シ ステ ム を 別 の 観点 か ら 眺め る と , 
e 同一 プロ セッ サ ・ コ ア に よる 構成 ホモ ジニ アス ) 
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e 異な る アー キテ クチ ャ の プロ セッ サ ・ コ ア に よる 構成 
( へ ヘテロ ジニ アス ) 
の 二 つ の アー キテ クチ ャ が あり ます . 

ホモ ジニ アス な マル チ プ ロ セ ッ サ に は , タイ ル の よう に 
プロ セッ サ ・ コ ア を 並べ て , 同一 プロ グラ ム を 実行 する ネ 
ットワーク ・ プ ロ セ ッ サ の 設計 例 な ど が あり ます . タイ プ 
的 に は デー タ 分 割 と いう ケー ス が 多く , 複数 の デー タ を 同 
時 処理 する こと で 処理 能力 と 上 げ て いま す . 

へ テロ ジニ アス な 構成 に は , 携帯 電話 に 搭載 され る CPU 
と DSP の コン ボ ・ チ ッ プ な ど が あり まず 図 1 を 参照 ). 
テロ ジニ アス な シス テム は , 解決 し よう と する 問題 に 最適 


マル チ プ ロ セ ッ サ で 実現 し た 


H.G64 ビデ オ ・ デ コー ダ 


コラ ム マル チ プ ロ セ ッ サ ・ コ ア LSI 開発 の 夏 う つ 


マル チ プ ロ セ ッ サ ・ コ ア LSI の 開発 で も っ と も た い へ ん な こと は , 在 す る か ら で す . 
ソフ ト ウェ ア の 開発 だ と 思い ます . た だ で さえ ソフ ト ウェ ア 開 発 者 や マル チ プ ロ セ ッ サ の ソフ ト ウェ ア 開 発 は 容易 で は あり ませ ん . いく 
検証 エン ジニ ア の 不足 が 叫ば れ 続け て いま す . それ すら 解決 で きず , つも の 異な る アー キテ クチ ャ を 同時 に 扱わ か けれ ば な ら な いこ と も あ 
0 格 _ り ます . 設計 支援 ツー ル の 開発 が 進ん で いま す が , 異な る アー キテ ク 
に 複雑 に な る マル チ プ ロ セ ッ サ ・ ベ ー ス の ソフ ト ウェ ア 開 発 を これ チャ の プロ セッ サ を 統合 的 に 扱え る ツー ル と な る と 限ら ちら れ て きま す . 
0 実機 デバ ッ グ も 欠か せま せん が , チッ プ 内 に 収まっ た プロ セッ サ で す 
マル チ プ ロ セ ッ サ ・ コ ア の ソフ ト ウェ ア 開 発 を アウトソーシング で か ら 従 来 の ICE を 用 いる こと は で きま せん . JTAG ポー ト な ど を 用 い 
きる の か と いう 問題 も あり ます . アウ ト ソ ー シ ン グ を し よう に も , 技 た デバ ッ ガ が 開発 され て いま す が , 異な る コア を うま く デ バッ ガ に イ 
術 的 , 経験 的 に 信頼 の お ける 会社 が ある の か , アウ ト ソ ー シ ン グ 先 の ンタ ー フ ェ ー ス する こと は , 実際 に は 容易 で は あり ませ ん . 
実力 を 測れ る エン ジニ ア が 社内 に いる の か な ど , いく つも の 問題 が 存 


な アー キテ クチ ャ の プロ セッ サ を 用 いま す . し か し , プロ 
セッ サ 間 の イン ター フェ ー ス や 開発 ツー ル の 問題 な ど を 考 
える と , ホモ ジニ アス な 構成 と 比較 し て 複雑 に な る 傾向 が 
あり まず 上 掲 の コラ ムカ マル チ プ ロ セ ッ サ ・ コ ア LST 開発 
の 愛 う つ 」 を 参照 ). 

ホモ ジニ アス と へ テロ ジニ アス の 両方 か ら な る マル チ プ 
ロ セ ッ サ ・ シ ステ ム も 存在 し ます . 例え ば ハイ エン ド の ゲ 
ー ム 用 グラ フィ ックス ・ チッ プ で は , ピク セル ・ レ ベル の 
演算 に ホモ ジニ アス な マル チ プ ロ セ ッ サ 構成 を と りつ つ , 


それ に サラ ウン ド ・ サ ウン ド な どの 高度 な オー ディ オ ・ プ 外部 メモ リ 較 
ロ セ ッ サ を 付加 し た チッ プ が 開発 され て いま す . Lo 


図 4 オン チッ プ ・ ネ ットワーク 


オン チッ プ ・ ネ ットワーク 図 


66 スリ ンク 和 CW な ど ) メッ シュ 村 革 ネットワーク プロセッサ な 
LSI 製造 技術 や 開発 ツー ル の 進化 に , 大 量 の ゲー ト ど ), ツリ ー 構 造 , ス ター 型 な ども ある . 究極 の 解 は な く , アー キテ クト の 
腕 し だ いと いう の が 現状 で ある . 
MS 
7 法 旭 上 
ー つ の LSI に , プロ セッ サ ・ コ ア を 数 個 は も ちろ ん の こ 調停 し な けれ ば な り ま せん . そこ で アク セス 遅延 の 問題 が 
と , 数 百 個 搭載 する こと す ぢ ど " 可能 "で す . 可能 で は ある の 生じ ます . 調停 に よっ て バス ・ ア クセ ス が 待た され る と , 
で す が , 詰め 込ん だ と いう だ け で は , 実は どう に も な り ま ハー ド ウェ ア の クリ ティ カル な 性 能 制 約 を 満た さ な い , ソ 
せん . その 理由 は , チッ プ 上 の ネッ トワ ー ク で す . フト ウェ ア の 実行 が 遅く な る と いっ た 問題 に 直面 し ます . 
ネッ トワ ー ク と は , デー タ や 合 念 ゴマ ンド ) を や り と り また , プロ セッ サ 間 で デー タ を 共有 する こと を 考え る と , 
する 径 路 を 指し ます . プロ セッ サ が 外部 例え ば ほか の プ バス 上 の デー タ 転送 量 が 増大 し まず 図 5). 
ロ セ ッ サ や 外部 メモ リ , プロ セッ サ 外 の ハー ド ウェ ア 資 源 デー タ 共有 に は 別 の 側面 の 問題 も 生じ ます . キャ ッ シ 
な ど ) と 協調 し て 何 か を 実行 し よう と する 場合 , デー タ と ユ ・ メ モリ を 搭載 する プロ セッ サ で 起こ る デー タ の 一 貫 性 
コマ ンド の や り と り は 欠か せま せん . その た め の 径 路 ネ の 問題 で す . 
ットワーク ) が チッ プ 上 に 必要 に な り ま 図 4). 鉄道 を 例 に , ネッ トワ ー ク を 考察 し ます . 鉄道 サー ビス 
ネッ トワ ー ク と し て は , 従来 , バス 構造 が よく 使わ れ て きま で は , 需要 の 増大 な ど に 対応 する た め に , まず は スケ ジュ 
し た . ARM コ ア の AMBA バス な ど が よく 知ら れ て いま す . 


、 。 」 注 1: 可能 と は 言っ て も , コス ト や 消費 電力 な ど , 技術 的 , ビジ ネス 的 に 解 
バス 構造 で は , 複数 の ブロ ッ ク か ら の バス ・ ア クセ ス を 決し な く て は な ら な い 課 題 は 山 ほ ど あ る 
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プロ セッ サ A 


プロ セッ サ B 


10 20 30 40 50 MxTk/s 
オン チッ プ ・ ネ ットワーク の トラ フィ ッ ク 較 
図 5 デー タ ・ バ ス の オー バ ヘ ッ ド 
複数 の プロ セッ サ 間 で デー タ を 共有 する と , ネッ トワ ー ク ・ ア クセ ス が 増大 
する . また , 外部 メモ リ な どの アク セス も 発生 する . し た が っ て , バス の バ 
ンド 幅 や レイ テン シ が 性 能 を 左右 する こと に な る . 


ー ル ダイ ヤ ) を 見 直し , 快速 や 急行 電車 の 増発 の 可能 性 を 
検討 し ます . 合間 合間 に 普通 電車 を うま く 配置 する こと で 
輸送 量 の 増大 と 遅延 目的 地 ま で の 時 間 ) を 最適 化し よう と 
し ます . 快速 電車 を 増発 させ すぎ る と , 普通 電車 の 遅れ が 
ひど く な り , 乗客 の ニー ズ を 満た さ な く な る の で , お の ず 
と 制限 が あり ます . また , 車両 の く ふう に より ( 例え ば 座 
席 を 減ら す ) さ ら な る 輸送 量 の 増大 を 図 ろ あう と し ます . オ 
ンチ ッ プ ・ ネ ットワーク の 観点 か ら 考 える と , これ は アー ビ 
トレ ーション の く ふ う , バー スト ・ モー ド の 導入 な ど , ハー 
ドウ ェ ア の 規模 に あま り 影響 を 与え な いで デー タ 転 送 処理 能 
力 を 上 げ よ うと する こと ! NM 

鉄道 輸送 量 の さら な る 増大 に は , 複々線 化 , 並行 し て 走 
0 の の 
と が オン チッ プ ・ ネ ットワーク 設計 に お いて も 検討 され ま 
す . 遅延 の 問題 は 例え ば う 回 路 に な っ て いた 駅 間 を 接続 す 
る な どの 新た な 路線 を 設け る と いっ た 対策 が あり ます . 
れ は 例え ば , メッ シュ 構造 の ネッ トワ ー ク を 設計 する こと 
に 相当 し ます . 

さて , 対策 を た て る うえ で 一 つ 重 要 に な る の が , ター ミ 
ナル 駅 や 大 き な 乗 り 継ぎ 駅 で す . ター ミナ ル 駅 の 許容 量 を 
超え る 輸送 は 不可 能 で す . 乗降 客 の 流れ まで 検討 し た きめ 
の 細か い 最 適 化 検討 が , ミナ ル 駅 や 乗り 継ぎ 駅 に は 必 
要 に な り ま す . シス テム LSI に お ける も っ と も 重要 な ター 
ミナ ル は , 外部 メモ リ に な り ま す . この ター ミナ ル ・ ポ イ 
ント に お ける デー タ ・ ス ルー プッ ト を 制御 する こと も , オ 
ンチ ッ プ ・ ネ ットワーク 設計 で は 重要 に な り ま す . 

この よう に 遅延 や 増大 する デー タ 量 を 制御 する た め 
複雑 な ネッ トワ ー ク 構造 を エン ジニ ア は 語 MIUGS ま し と 
外部 メモ リ へ の イン ター フェ ー ス を 含め て , 個々 の アプ リ 
ケー ショ ン ( シス テム LSI) ご と に 階層 構造 や オメ ッシュ / リ 

グ 型 ネッ トワ ー ク と スイ ッ チ , バッ ファ , アー ビタ を 手 
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プロ セッ サ な どの 演算 モジ ュ ー ル 財 


| 議 イン ター フェ ー ス 凶 
ワイ ヤ メタ ル ・ レ イヤ ) 図 


図 6 ネッ トワ ー ク が 大 規模 に な りす ぎる 
デー タ , コマ ンド を 移動 する た め の ネ ットワーク が , 
理 す る モジ ュー ル よ り 複雑 か つ 大 規模 に な る . 


デー タ や コマ ンド を 処 


作り し て きた わけ で す . 

IP コア ・ ベ ンダ も , 例え ば 英国 ARM 社 は AMBA3 AXI 
と いっ た 従来 の AMBA バス と 比較 し て 格段 に 性 能 が 向上 
し た イン ター フェ ー ス 仕様 を 作成 し て いま すし , 米国 
Sonics 社 の よう に オン チッ プ ・ ネ ットワーク 技術 を 売り 物 
に し て いる 会 社 も あり ます . 

ネッ トワ ー ク が いか に 重要 で ある か と いう こと は , 最近 
話題 O ネッ トワ ー ク ・ オ ン ・ チ ッ プ 」 と いう こと ば か ら も 
わか り ま す . 2005 年 11 月 に は フィ ン ラ ンド で ネッ トワ ー 
ク ・ オ ン ・ チ ッ プ に 関す る 国際 ワー クシ ョ ッ プ が 開催 され ま 
し た . も っ と も この ワー クシ ョ ッ プ は アカ デミ ッ ク な 立場 
か ら の 発表 が 比較 的 多く , デー タ , コマ ンド を 移動 する た 
め の ネ ットワーク が デー タ , コマ ンド を 処理 する モジ ュー 
ル よ り 複雑 か つ 大 規模 に な っ て し まい そう な , 筆者 の 目 か 
ら は 本 末 転 倒 で は な いか と 思わ れる 発表 も あり まし だ 図 6). 
筆者 は , ネッ トワ ー ク を いか に 現実 的 か つ 効 率 良 く 設計 
で きる か いな か で , シス テム LSI ア ー キ テク ト の 力量 が 問 
われ る の だ ろう と 思っ て いま す . 


2 H.264 ビデ オ ・ デ コー ダ ・ シ ステ ム の 


マル チ プ ロ セ ッ サ 構成 の ビデ オ ・ デ コー ダ LSI の 開発 事 
例 を 紹介 し ます . この デコ ー ダ ・ シ ステ ム は H264 の みな 
ら ず , MPEG で 2 MPEG で 4 VC-1 と いっ た ほか の 規格 も サ 
ポー ト し ます . 今回 は HL.264 に 絞っ て 解説 し ます が , HL.264 
設計 時 に 定義 し た ユー ザ 拡 張 命令 は , ほか の 規格 も サポ ー 
ト で きる よう に 設計 され て いま す . 機能 的 に 固定 し た ハー 


マル チ プ ロ セ ッ サ で 実現 し た 


H.G64 ビデ オ ・ デ コー ダ 


動き 補正 1 リフ ァ レ ンス ・『 
ipMA | フラ レーム 


Pixel プ ロ セ ッ サ で 実行 較 


図 7 ! Parser プ ロ セッ サ で 実行 較 | ーー 

5 ー 示 較 
oo 上 村 ナー 了 叶 e 2 
の WPePAMa ( NARABNSIRGYMR RI 請 5 ミミ ミミ 還 計 ! 外部 DDR SDRAM 
ドウ ェ ア で は な く , ゲー ト の 有効 利用 が で き て いる わけ で り ま す . ハー ドウ ェ ア は 究極 の パラ レル ・ マ シン で ある た 
す . また , ソフ ト ウェ ア ・ ベ ー ス の 設計 な の で 仕様 の 追加 め , 潜在 的 バグ の 検証 の 難し さ が あ り ま す . また , 機能 
や 変更 に 柔軟 に 対応 し ます . HL264 は ビデ オ 圧 縮 の 新しい に 固定 し て いる の で ゲー ト を 有効 利用 し て いる と は 言え ず , 
規格 で す . ここ で は 規格 の 概要 に つい て は 触れ ませ ん の で , 命令 メモ リ を 必要 と する ソフ ト ウェ ア と 比較 し て 得失 の 比 
参考 文献 3) を 参照 し て くだ さい . 較 は 難し く な り ま す . 
5 ソフ トウ ェ ア ・ デ コー ド を 目 ざ す ⑱ へ ヘテロ ジニ アス な 機能 分 割 型 を 採用 

7 に 伸張 デコ ー ド ) の 処理 フロ ー を 示し ます . ハー 図 8 が , 筆者 ら の 開発 し た デコ ー ダ ・ シ ステ ム で す . 二 
ド ・ ワ イヤ ー ド 論理 の ブロ ッ ク を 用い ない 完全 ソフ トウ ェ つの プロ セッ サ ・ コ ア を 用 いた へ ヘテロ ジニ アス な マル チ プ 
ア ・ デ コー ド の 設計 を 目ざし まし た . HL.264 の 伸張 フロ ー ロゼ セッ サ ・ シ ステ ム に な っ て いま す . 

は, 従来 の 規格 MPEG2 な ど ) と 比較 し て 複雑 に な っ て い e Parser : デコ ー ド ・ フ ロー の 前 半 部 を 担当. また, デー 
1 プロ セッ サ に よる 設計 と な る と , 非常 に 高い 性 能 タ の 出し 入れ を つか さ ど る DMA エン ジン の 制御 を 担当 . 
( Pentium 級 ) が 必要 に な り ま す . 組み 込み 向け LSI に お い e Pixel: デコ ー ド ・ フ ロー の 後半 部 を 担当 . 後半 部 は 制 
て は , これ まで 多く の ハー ド ウェ ア ・ ブ ロッ ク を 用 いる ハ 205 よ 少 なく, ピク セル ・ レ ベル の 演算 が 中 心 . 
ー ド ウェ ア ・ ソ フト ウェ ア 複 合 設計 が 主流 で す . ソフ トウ eDMA : デー タ の 出し 入れ を 担当. 

ェ ア は 制御 の み を つか さ ど り , デー タ 処 理 の 大 半 は ハー ド e PIF, NB TIE キ ュー: プロ セッ サ , DMA を 


ウェ ア で 行う と いっ た ケー ス が 多く 見 られ まし た . 
今回 筆者 ら が 設計 し た デコ ー ダ は , デー タ の 出し 入れ は 


ソフ トウ ェ ア 制 御 さ れ た ハー ドウ ェ ズ DMAO) で する | 
が , デー タ 処 理 は すべ て ソフ ト ウェ ア で 実行 する と いう シ TIE ボート に よる 図 IT ュー 


Xtensa 図 
Pixel 
プロ セッ サ 図 


ステ ム で す . ハー ド ・ ワ イヤ ー ド 論理 を 極力 削減 し た の で , 
e ハー ドウ ェ ア の 設計 検証 は 最小 


ミュ ニケ ーション ・ 
Xtensa 図 バス 図 
Parser 錠 ト と 
プロ セッ サ 図 


e ゲー ト の 再 利用 が 可能 MM 中 ロー ド / ス ト ア 図 

( 固定 し た 機能 の ハー ドウ ェ ア ・ モ ジュ ー ル が 最小 ) PIK Xtensa Processor Interface) ネ ットワーク 
e 仕様 変更 , 仕様 追加 に 柔軟 に 対応 で きる ( 階層 構造 の ポイ ント ・ 2 ・ ネ ットワーク ) 
e 組み 込ん で 検証 を 免れ た ハー ド ウェ ア の バグ の 出現 確率 


ー ド , 図 
が 低下 する … 図 2 ポー ト 較 
な どの 利点 が あり ます . マル チチ ャ ネル DMA | 


2 3 6 1 
< 1 SUM0IGRG TS 人 旨 人 人 和 e2 SoC シス テム ・ ネ ットワーク へ の イン ター フェ ー ス b 
応 で きる こと は , ソフ ト ウェ ア の 利点 で す . ソフ ト ウェア 図 8 設計 し た H.264 ビ デオ ・ デ コー ダ 
処理 の 弱点 と し て は , ソフ ト ウェ ア の 並列 度 と ハー ドウ ェ 機能 分 割 型 ヘ テロ ジニ アス 構成 で も ある. 一 つの コン フィ ギャ ラブ ル ・ プ ロ セ 
本 時 ッ サ を 異な る コン フィ グレ ーション で 使用 し て いる の で , 共通 の ツー ル や フ 
ア の 並列 度 の 決定 的 な 違い , 命令 メモ リ の 必要 性 な ど が あ ロー で 開発 で きた . 
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接続 する ネッ トワ ー ク . PIF は プロ セッ サ ・ イ ンタ ー フ が あり ます . 


ェ ー ス . PIF ネッ トワ ー ク の ほか に プロ セッ サ 間 を 直接 プロ セッ サ が 固定 され る 場合, ワー クロ ー ド の 割り 当て 
TIE ポー ト で イン ター フェ ー ス し , ネッ トワ ー ク 遅延 の は , こと の ほか が か が 重要 か つ 複 雑 な 問題 に な り ま す . 処理 性 能 
影響 を 受け る こと な く 割り 込み 処理 な ど を 伝え る . が 1 命令 分 だ け で も 不足 する と , シス テム と し て 動作 し な 
設計 し た デコ ー ダ は , 機能 分 割 型 の アプ ロー チ を と り ま く な る た めで す . し か し , 当初 の 見 積もり NM 要 

し た . HL264 規 格 を 分 析 す る と , MPE で 2 と は パケ ッ ト ( 構 ー キ テク チャ 設計 ), 寺 の 化合 の ソリ ワ ド ウェア 開 に 
文 上 の 区 切り ) が ずい ぶん 異な る こと が わか り ま す . MPEG- っ て プロ セッ サ の 性 能 不 足 が 見 つか る , と いう 0 
2 は スラ イス ・ レ イヤ か らく る 制限 が あり まし た . つま り ェクト が 後 を 絶ち ませ ん . ソフ トウ ェ ア の マイ クロ ・ レ ベ 
1 ピク チャ は 複数 の スラ イス で 構成 され , スラ イス ・ レ イ ル の 最適 修 アセ ンプ リ 言語 に よる 直接 的 な 設計 に まで 至 
ヤ ・ レ ベル で デー タ 並列 処理 が 可能 で し た . し か し , HH264 る こと も ある ), ツー ル ・ 0 に さま ざま 
に は こう し た 制限 が な く , きれ いな デー タ ・ レ ベル の 並列 な アプ ロー チ を 経た 末 , アー キテ クチ ャ の 変更 や 仕様 変更 
処理 ポイ ント を 発見 で きま せん で し た . そこ で 筆者 ら は , に 至る ケー ス も 見 受け られ ます . 
デコ ー ド ・ フ ロー を 機能 分 割 す る こと に し た の で す . 筆者 ら は , 幸い に し て コン フィ ギャ ラブ ル ・ プ ロ セ ッ サ 
を ベー ス に 設計 を 進め た の で , こう し た 問題 を 回 避 す る こ 
@ ワー クロ ー ド の 割り 当て が 重要 と が で きま し た . 米国 Tensihica 社 の Xtensa プロ セッ サ は 
マル チ プ ロ セ ッ サ ・ シ ステ ム を 設計 する 際 に 重要 な ポイ ユー ザ が 構成 例え ば キャ ッシュ ・ メ モリ の 容量 な ど ) を 変 
ント は , 更 し た り , ユー ザ 拡 張 命 令 を 追加 で きる プロ セッ サ で す 
e ワ ー ク ロー ド ( 作業 負荷 ) の 適切 な 割り 当て ( 下 掲 の コラ Xtensa プロ セッ サ に よる 開発 」 を 参照 ). 


e デー タ 構造 , と くに 共有 デー タ の 取り 扱い 
@e モジ ュー ル 間 同期 


コラ ム Xtensa プロ セッ サ に よる 開発 
Tensihica 社 の Xtensa は, ユー ザ が 開発 する シス テム に 最適 化 で き TIE ポー ト な ど を サポ ー ト し て いま す . 
る コン フィ ギャ ラブ ル ・ プロセッサ ・ コ ア で す . DSP 的 に プロ セッ サ 
を 拡張 する こと も で きま すし , Linux な ど を 搭載 する シス テム ・ コ ン @ 開発 環境 


トロ ー ラ と し て コン フィ グレ ーション する こと も で きま す . 最新 の Xtensa ベー ス の 開発 で は , 統合 開発 環境 IDE)Xtensa Xplorer を 
Xtensa LX で は , VLIW ラ イク な 拡張 命 欠 FLIX), TIE キ ュー, 使用 し ます . 開発 エン ジニ ア は TIE 拡張 命令 の 開発 , アプ リ ケー シ 

ョ ン ・ ソ フト ウェ ア の 開発 , デバ ッ グ , 実機 シス テバ エミ ュ レ ー シ 
BSIERRaGSsRSg ョ ン ・ ボー ド ) を 用 いた デバ ッ グ な ど は , IDE を 用 いて 行い ます 
ご * 回 重吉 灯 還 pefrgts Ao 人 ieCmfpy TOemy itiwo ne mes noy | G・ g 賠 


( 図 B-1). 

マル チコ ア ・ シ ステ ム の モデ リン グ に は , XTMR Xtensa Mode- 
jing Protocol) を 使用 し ます . この XTMP は SystemC ベ ー ス の モデ 
ル と も イン ター フェ ー ス で きま す . 
筆者 ら が 設計 し た ビデ オ ・ シ ステ ム で は , Xtensa Xplorer 上 で マ 
ル チ プ ロ セ ッ サ ・ モ デル を 開発 し まし た . デコ ー ダ ・ ソ フト ウェア を 


ユー ザ 定 義 の TIE 命 令 を 設計 中 開発 する エン ジニ ア は , この モデ ル 上 で プロ グラ ム を 実行 する こと で 
エディ タ は 自動 的 に 図 ルー ルム っ か 、 ル ュ ンー 
動作 検証 アウ ト プッ ト の 正 し さ と リア ル タ イ ム 性 の 確認 ) を 行い , そ 
mm ie ヒー 表 の 後 , 最終 検証 と し て RTL シ ミュ レー ショ ン を 実施 し まし た . XTMP 
に 本 

ii 3263 人 RSE-H 4 は 完全 な C モ デル な の で , 使用 に あたっ て SystemC の 知識 は 必要 あ 
nm ee les IE IE jew り ま せん . 

ョ コン フィ ギャ ラブ ル ・ プ ロ セ ッ サ ・ ベ ー ス の マル チコ ア LSI の 開発 


We awtmer 


で は , 複数 の プロ セッ サ ・ コ ア は まっ た く 異な る 拡張 , コン フィ グレ 
図 B-1 統合 開発 環境 IDE)Xtensa Xplorer 


ーション に な る か も し れ ま せん A( つま り へ ヘテロ ジニ アス な マル チ プ ロ 
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マル チ プ ロ セ ッ サ で 実現 し た 
HH.664 ビデ オ ・ デ コー ダ 


⑯ ユー ザ 拡 張 命令 で 必要 な 処理 性 能 を 得る 
* 物理 的 設計 目標 


開発 に あたり , 筆者 ら は 消費 電力 や コス ト の 観点 か ら ハ サイ ズ : 10.5mm 以 民 0.13 Zm CMOS プロ セス ) 
ー ド ウェ ア の 設計 目標 を 定め まし 怒 図 9). この ハー ドウ クロ ッ ク 周 波数 : 200MHz 以下 
ェ ア の 設計 目標 の 範囲 内 で , ハー ドウ ェ ア を 最適 に 構成 で 主 SE 
きる わけ で す . 機能 分 割 や デー タ 共有 な ど , ソフ トウ ェ マル チ ス タン ダー ド C( H.264, MPEG-2/4, VC1) 
SDTV レ ベル の 解像度 , フレ ー ム ・ レ ー ト ( PAL, NTSC) 
ア ・ ア ー キ テク チャ を 設計 し た 後 は 。 個々 の ソフ ト ウェ ア NNNGR 条 
開発 を 独立 し て 行え ます. プロ セッ サ に 必要 な 演算 能力 は , 完全 ラド ウェ アデ ・ デ コー ド 
ユー ザ 拡 張 命 令 を た 用 いて 得る こと が で きま すし , 演算 に 必 図 9 設計 目標 
要 と する 最適 な メモ リ を 構成 する こと が で きま す . 消費 電力 。 コ スト の 観点 か ら 設計 目標 を 定め た . 
各 プ ロ セ ッ サ の 構成 を 図 10 に 示し ます . ユー ザ 拡 張 命 令 
の 例 と し て , ここ で は 廿 264 の デブ ロッ キン グ ・ フ ィ ル タ 
な ど に 必要 な 演算 命 偽 Pixel Engine) と 算術 符号 CABAC) で 使用 で きま す . 新た に 定義 され た デー タ ・ タ イプ は コン パ 
の 復号 に 必要 な 命令 を 示し ます . イラ に よっ て 論 識 され る た め , 特別 な が ライ ブラ リ ・ セ ッ ト を 
ビデ オ 関 連 の アプ リケーション は ピク セル ・ レ ベル の 作成 する 必要 は あり ませ ん . 
演算 を 多用 し ます . 米国 Intel 社 の MMX MultiMedia 
eXtension) の よう に , SIMD タ イプ の 演算 命令 が 非常 に 有 @ ユー ザ 定 義 の ステ ー ト と 命令 で 制御 フロ ー を 高速 化 
効 に 機能 し ます . も ちろ ん Xtensa で も SIMD デ ー タ ・ タ Xtensa が MMX な どの マル チ メ デ ィ ア 拡張 命令 を 備え た 
イプ を 定義 し , SIMD デ ー タ を 扱う 演算 命令 を 定義 で きま プロ セッ サ と 大 きく 異な る 点 の 一 つ は , 制御 フロ ー を 拡張 
す . 図 11 に NSK 1 追加 し た SIMD タ イプ 命令 命令 で 高速 化 で ご きる こと で す . CABAC を 例 に 示し ます . 
語 の 例 を 示し ます . デー タ ・ タ イプ は ユー ザ ・ プ ログ ラム 図 12 に は , 条件 分 岐 ヤ ルー プ が 多数 見 られ ます . 演算 そ 


ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー ーーーーーーーーー へ 、 


セッ サ ). し か し 開発 ツー ル が 統一 され て いれ ば , 異な る ベン ダ の 環 し い タ イプ の イン ター フェ ー ズ TIE ポー ト , TIE キ ュー) に つい て 
境 を 統合 する と いっ た 手間 は な く な り ま す . XTMP な ど を 用 いて マ 解説 し まし だ り . TIE ポ ー ト と TIE キ ュー は , プロ セッ サ 間 , プロ 
ル チ プ ロ セ ッ サ を 取り 扱う ソフ トウ ェ ア ・ モ デル を 構築 すれ ば , 実機 セッ サ と ハー ド ・ ワ イヤ ー ド 論理 の ブロ ッ ク 間 を 直接 接続 で き , 共有 
シス テム の 挙動 を ソフ トウ ェ ア ・ モ デル 上 の 挙動 と 比較 する こと も 可 ネッ トワ ー グ タグ バス, リン グ , メッ シュ な ど ) を 補完 する も の で す . 共 


能 で す . この ヘテロ ジニ アス な マル チ プ ロ セ ッ サ ・ シ ステ ム を ホモ ジ 有 ネ ットワーク と 1 対 1 の ネッ トワ ー ク を 組み 合わ せる こと で , 満た 
ニア ス な 開発 環境 で 設計 で きる こと は Xtensa プロ セッ サ の 特徴 と い さ な く て は な ら な い 設 計 条 保 総 デ ー タ 量 と デー タ 遅延 ) を 現実 的 に 
えま す . 解決 する こと が で きま す . 

Xtensa の プロ セッ サ ・ インター フェ ー ズ PIF) と TIE キ ュー, TIE 
@ TE キュ ー と TIE ポー ト ポー ト を 活用 し て 有機 的 に ネッ トワーク を 構成 し た 例 を 図 B-2 に 示し 


筆者 は 本 誌 2005 年 6 月 号 に お いて , 設計 者 が 自由 に 定義 で きる 新 ます . 


Xtensa の PIF イ ンタ ー フ ェ ー ス は 入出 力 が 完全 に 図 
2 重 で 。 し か も DMA と Xtens4 ロー ド , スト ア ) は と TIE 鐘 上 
バー ト さ ア ・ 


独立 し て いる . し た が っ て 64 ビ ッ ト , 200MHz 凶 


Rt 


接続 凶 


構成 の 場合 の バン ド 幅 は 図 
2x( 2x 8X 200)= 6400M バ イト /s 鐘 
と な る 図 
了 イン ター フェ ー ス 職 
図 B-2 0 PIF も し く は 図 
3 ほか の イン ター フェ ー ス 
TIE キュ ー と TIE ポート に よる ネッ ト TEmー ト ハー ドウ ェ ア ・ 2 の すのこ の 回 
ワー ク 例 TIE キ ュー 図 モジ ュー ル 凶 


PIF を 階層 化し た 較 
Xtensa 間 お よび Xtensa と ハー ドウ ェ ア ・ ネッ トワ ー ク も 設計 で きる 
モジ ュー ル の 間 を PIF, TIE キュ ー, TIE ポ 


ー ト を 使っ て 接続 し て いる . 
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eParser 
デー タ ・ メ モリ : 32K バ イト 
命令 メモ リ : 30K バ イト 
デー タ ・ キ ャ ッシュ : 4K バ イト 
プロ セッ サ ・ イ ンタ ー フ ェ ー ス : 64 ビ ッ ト 
64 ビ ッ ト 命令 語 セ ッ ト ( FLIX, VLIW ラ イク な 命 


拡張 命令 語 


@ Pixel 
デー タ ・ メ モリ : 64K バ イト 
命令 メモ リ : 20K バ イト 
デー タ ・ キ ャ ッシュ : 4K バ イト 
プロ セッ サ ・ インター フェー ス : 
SIMD 命令 語 セ ッ ト ( 8 ピク セル ・ 


1 ト 
ー タ を 並列 処理 可能 


種 類 


Cmpgt 1, Cmpde 1, omp1t 1, cmple 1, cmpeqd 1, Cmpgtt 1, Cmpgdet 1, Cmp1tE 1, Cmp1t 1, 
cmpeqdt 1, ompeqt 1, cmpgtF 1, cmpgef 1, cmp1tfF 1i, cmplef 1, cmpedf 1, mvt, mVE 


条件 比較 , 条件 MOV 


wrn1ibb]e, rdnibb1e, rqby 上 e 


ロー ド , スト ア 


1dz 


bs 1oadbufFfFer, bs getbits, bs 1qadgetbits, bs showbits,。 bs Elushb1ts, bs A11gnBye, 


bs Flushbitsstate, bs 1qdz 


ビッ ト ・ ス トリ ー ム ・ ロー ド , 
ビッ ト ・ ス トリ ー ム ・ ス ト ア 


DS runbefFore, 
bs 1evcode, 


jbs invsoan, bs 1qdtab1]e8, 
bs calcleve1, bs ca1oindex 


1d quant, Ds rdtones, DS quan 上 , DS SufFF1x81xXG, 


CAVLC 


in1t cabac, 1d64 cntxE0 1, st64 cntxtO 1, 


1d64 Con ヒエ 1 エ , gt64 Cn キ キモ 1 1 


1d64 cntxt2 1, 


St64 cntxt2 1, bs rdleve1, gt64 1eve] 1 


CA BAC 


bs deocistonbin, bs bypassbin, bs readooefFfE4x4 


CABAC 


1dMV1efFE, 1qdMVEtop, 1YMVtopright, 1dLeftReFF エ ame, 


1dTopRefFFrame, 1dTopR1ghERefFFrame, 
mV pred1ic, detCurMVp エ , 9etTLeftMVPE エ ,。 et 上 TopMVPtr, det 上 TopR1g9htMVP エ , detNe1ghborTndex 


モー ・ ベ クタ 予想 


ツ ョ . ン 


nit 1efEtnnz, check CbD_ bi, ca1C _ cntx 上 1ncr, modify csbpnnz, read Csbp bit, ca1cN 


CBP 


mbBsTnit, mbBsLoad, mbBsGetb1kTndx, 


mbBsMvdifFfF, mbBsReFd1iFF, MbBsCa1c 


Boundary Strength 


1dz, CaloMVXY, oca]oCF エ rmXY,。 mVvXYC]1D3, 


MvDLioad32, DMVC] 1p3, DMVPow2D+Y, DMvAbs 
DMvCompUc1, MVvMaoLLHS, MVMacLLiSSoa]1e6, MVvMaoHLiSSoale8, MvMacLLSSoa]1e8 


TIE 命令 を 追加 する 前 


9 MAC, ALU, クリ ッ プ , スケ ー ル 


TIE 命令 を 用 いて 拡張 


Rugby Cavlc 
54Mbps 


Rugby Cabac 
54Mbps 


Rugby Cavlc 
54Mbps 


ゲー ト 数 


701MCPS 


196MCPS 188MCPS 


沿 】9 Rugby Cab 
ugby Cabac 
プロ セッ サ の 構成 5 開 54Mbps 
ここ で は H.264 の デブ ロッ キン フィ ル タ 
P 1.300MCPS 
な ど に 必要 な 演算 命 信 Pixel Engine) と 算術 ーー 
符 訪 CABAC) の 復号 に 必要 な 命令 を 示す . Pixl 1218MCPS 


ューーーーー ン ーーーーー 
TIE 命令 な し で は 
1.3GHz の コア が 必要 


1217MCPS 


187MCPS 


ヽ ーーーーー ン ーーーーー 
TIE 命令 を 使っ た こと に より 200MHz 以下 の コ 
ア で よく , 面積 と 消費 電力 を 大 幅 に 削減 で きた 


185MCPS 


Pixel デ ー タ を 並列 に 扱う . 凶 | 
ビデ オ ・ デ ー タ 演算 は , 各 Pixe デ ー タ に 同じ 演算 を 独立 し 区 


に 


て 施す こと が 多い . 凶 
し た が っ て , 各 デ ー タ を 同時 に ロー ド し て 演算 する こと で , 
演算 処理 能力 の 大 幅 な 向上 を 期待 で きる . 凶 
Xtensa で は SIMD 演 算命 令 を 簡単 に 追 
加 で きる . また , デー タ ・ タ イプ を 定 
ctype Se // 8-bit x 16 STMD デ ー タ ・ タ イプ の 定義 義 で き , SIMD 演 算命 令 を コン パイ ラ 
較 、 が 自動 認識 する ( 特別 な ライ ブラ リ を 
図 11 regifi1e vec128 128 16 //128 ビ ッ ト ・ レ ジス 侯 16 エ ント リ ) の 定義 図 用 意 する 必要 は な い ) 攻 
ノ 
Pixel プ ロ セ ッ サ に 追加 し た SIMD operaion simd8x16add {out vec128 o, in vec128 a, in vec128 b1!{} 
タイ プ 命 令 語 の 例 wire [7:0] tO = a[7:0] + b[7:0]: SIMD 型 ADD 命 令 の 定義 図 
128 ビ ッ ト SIMD デ ー タ ・ タ イプ を 定 加 ー 還 16 の 8 ピット ADD 演算 
義 し た 例 を 示す . 図 に は 示し て いな い wire [7:0] 上 15 = a[127:120] + b[127:120] : を 並列 に 実行 する 較 
が , デー タ を ロー ド , スト ア す る 命令 as81gn oO = {上 15, 上 14, 上 13, 上 12, 上 11, 上 10, 上 9, 上 8, 上 7, t6, t5, 上 4, 上 3, 上 2, 上 1, 0]: 
を ユー ザ が 定義 する 必要 が ある . ) 
の も の は 単純 で す が , SIMD タ イプ の 演算 は 不適 格 で ある か いで す . 
た め , 演算 の 並列 度 を 上 げ て 処理 能力 を 高め る と いう MMX Xtensa は ユー ザ 定 義 の ステ ー ト ( 状態 ) を 設計 で きま す . 
型 の アプ ロー チ は と れ ま せん . 条件 が 多い と いう こと は , 通常 , プロ セッ サ は , プロ グラ ム ・ カ ウン タ を は じ め , 
プロ セッ サ ・ パ イプ ライ ン に ハザード を 生じ や すく , や っ GPR general purpose register) の ほか に いく つも の ステ 
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DecodeDecis1on 


qCod1Range1dxx = 
cod1RangdeLPS8 = 
cod1Ranqde = 


9 (cod1Range>>6 ) 
rangeTabLP8 [pState1dx] [qCod1Range1dx] 
cod1Range 


マル チ プ ブ プロセ ッ サ で 実現 し た 


H.G64 ビデ オ ・ デ コー ダ 


(ctx1dx) 


を 3 


= Cod1RangeLPS 


演算 その も の は 単純 だ が , lf-else の 条件 が 存在 . 
MMX の よう な SIMD 演 算命 令 で は 十分 な 性 能 の じ 
向上 を 実現 で き ない 較 


binVa] = !Va1MPS 
cod1OFfFgse = cod1OFfFgse = cod1Range 
cod1Range = cod1RangeLP8 


TIE テ ー ブ ル と し て 定義 
TIE テ ー ブ ル は TIE ス テー ト 【 
と 同じ よう に ユー ザ が 定義 0 
で き , 命令 が 使用 で きる 
ステ ー ト ( リー ド ・ オ ン リ ) 


pState1qdx = trans1qdxLPS [pState1dx] 


pState1dx = 


b1nVa] = Va1MPS 
trans1dxMPS [pState1dx] 


TIE ス テー ト と し て 定義 
TIE ス テー ト は 命令 が 使用 で きる レジ スタ の 
一 種 で , 通常 どの プロ セッ サ ・ ア ー キ テク 
チャ に も 存在 する . Xtensa の 場合 , ユー ザ 
が 必要 に 応じ て 定義 で きる . TIE ス テー ト は 


図 12 
CABAC デ コー ド ・ フ ロー の 一 部 2 | 
ITU-T Rec.H.264 05/2003), 図 9.3 を ベー ス に し た も の . 
この フロ ー 全 体 を 1 命令 で 実行 する TIE 命令 を 追加 し た こと 
に より , 処理 速度 は 100 倍 以上 に な っ た . 


Pars er 較 


13 デコ ー ド 処理 に お ける デー タ 移動 


膨大 な デー タ を プロ セッ サ - メ モリ 間 で 移動 , また は 二 つ の プロ セッ サ で 共有 する 必要 が ある . DMA を 


また 演算 を 並列 化 で きる . 


ー ト を 記憶 し て いま す . Xtensa で は , プロ セッ サ が 最初 か 
ら 持つ ステ ー ト の ほか に , ユー ザ が 独自 の ステ ー ト を 定義 
で きま す . ユー ザ 定 義 の ステ ー ト は , ユー ザ 定 義 の 命令 で 
参照 ・ 更新 で きま す . ステ ー ト は ダイ レク ト に 参照 され る 
の で , GPR を 参照 する 際 に 必要 な オペ ラン ド ・ フ ィ ー ル ド 
は 不要 で す . つま り , 命令 語 は 自由 に ステ ー ト を 使え ます . 
も ちろ ん ステ ー ト も ハー ド ウェ ア ・ モ ジュ ー ル で すか ら , 
むやみ に ステ ー ト を 定義 する と コス ト 面 に 影響 し ます . 
CABAC 用 の 命令 を 設計 する に あたり , ユー ザ 定 義 の ス 
テー ト を 活用 し まし た . ステ ー ト を 用 いて CABAC フ ロー 
の 条件 分 岐 と ルー プ を すべ て 1 命令 に 収め た の で す . ステ 
ー ト ・ マ シン を ソフ ト ウェ ア の 命令 語 に し た こと に な り ま 


RenormD 


| が mw | 


ライ ト 凶 DMA デ ー タ を 一 度 DDR メ モリ 較 


オペ ラン ド で 指定 し な いた め , 命令 語 フィ 
ー ル ド の 制約 を 受け な い 図 


( サブ ルー チン ) 較 
サブ ルー チン も 展開 図 


プロ セッ サ の 演算 較 


な ど に 移動 する 必要 は な い . ] 


DMA が デー タ 移動 中 も , Xtensal DMA は デー タ 移動 を プロ セッ サ の 
は 外部 メモ リ に アク セス で きる 較 0 


BB いる こと で , 外部 メモ リ を 介さ ず に デー タ 移動 が 行え る . 


す . ステ ー ト は CABAC に 特 化 し た も の で は あり ませ ん . 
実際 , 筆者 ら の 設計 で は 同じ ステ ー ト は CAVLG CABAC 
と 並ぶ も う 一 つの 圧縮 手法 ) な ど を 取り 扱う 命令 語 で も 使 
用 し て いま す . 


ka 


芽 


⑱ DMA で デー タ を 移動 する 

RISC プ ロ セ ッ サ の 命令 語 は , レジ スタ 上 の デー タ の み 
を 処理 し ます . し た が っ て , メモ リ 上 の デー タ は ロー ド , 
スト ア 命 令 で レジ スタ と や り と りす る 必要 が あり ます . ま 
た , マル チ プ ロ セ ッ サ で は , プロ セッ サ 間 で デー タ の や り 
と り が 必要 に な り ま す . 

設計 し た デコ ー ダ で は , 大 ざっ ぱに 図 13 に 示す よう な 
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TIE キ ュ -( ライ ト )128 ビ ッ ト 図 
ii | 15 


ご ら コ に ど コ ー ビ ら コー ロコ どら ョ コー ピコ ーー ロコ ーー ピコ ロロ セ ビ コ コー どー ビ ロコ ピロ コビー ピコ セコ ロラ 


10 あお ネー 


15 


14 転 置 メ モリ 
TIE キュ ー に 接続 する と , 転 置 に 必要 な サイ クル 数 が ゼロ に な る . 


データ の や り と り が 必要 に な り ま す . 

プロ セッ サ 間 で デー タ を 共有 する と な る と , キャ ッ シ 
ユ ・ デ ー タ の 不一致 の 問題 が 生じ ます . それ を 避け る いち 
ば ん 手 っ 取り 早い 手法 は , 共有 デー タ に つい て キャ ッシュ 
を 介さ な いこ と で す . た だ し , この 場合 , プロ セッ サ の 性 

能 が 大 きく 低下 し まず すべ て の ロー ド が キャ ッシュ ・ ミ 
ス と いう こと に な る ). また , 共有 デー タ を 適切 に 同期 さ 
せな く て は な り ま せん . こう し た こと を ソフ トウ ェ ア で 処 
理 す る と , 大 き な オ ー バ ヘッ ド に つなが り ま す . デコ ー 
ド ・ フ ロー に は まっ た く 現れ な い デ ー タ の 移動 に な る た め 
で す . そこ で 筆者 ら は , プロ セッ サ 間 , プロ セッ サ と メイ 
ン ・ メ モリ の 間 の デー タ の や り と り を DMA で 実行 する こ 

飼 し まし た 、 

Xtensa は , デー タ ・ メ モリ や 命令 メモ リ を 外部 DMA が 
較 全 28 の イジ ター フェ ー ス 
を 備え て いま す . デコ ー ド ・ フ ロー 上 で は 複数 の デー タ が 
や り と りさ れ ま すか ら , 独立 し た 複数 の DMA チャ ネル を 
用 意 し まし た . 個々 の DMA チャ ネル は ソフ ト ウェ ア で 完 
全 に 制御 で きま す . DMA アク セス の オー バ ヘ ッ ド を 極力 
最適 化 で きる よう に , DMA は 開始 ・ 終了 を ソフ トウ ェ ア ・ 
ポー リン 欠 DMA ステ ー タ ス を リー ド する ), また は 割り 
込み の 二 つ の 手法 で 知る こと が で きる よう に な っ て いま す . 

ソフ トウ ェ ア で マル チバ ッ フ ァ を 構成 し , デー タ 処理 と 
DMA に よる デー タ 移動 を 並 贅 化す る こと で , デー タ 移動 
の オー バ ヘ ッ ド を 隠 べ いし て いま す . 


人 @ 電力 制御 や デー タ 転 置 に オン チッ プ ・ バ ス を 活用 
設計 し た ビデ オ ・ シ ステ ム で は , TIE キ ュー と TIE ポー 
ト も 多用 し て いま す . 二 つ の Xtensa の うち , Parser が マ 
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スタ に な り ま す . Parser が 何 も デ ー タ を 持た な い 場 合 , 
Pixel は IDLE に な り ま す . そこ で 消費 電力 を 低減 する た め 
に , Parser で Pixel の クロ ッ ク ・ ゲ ー ト を 直接 制御 で きる 
よう に し まし た . Xtensa に は RunStall と いう 入力 が あり , 
外部 か ら 直接 クロ ッ ク を OFF で きま す . Parser の TIE ポ 
ー ト ( 出力 ) を Pixel の RunStall に 接続 する こと で , この 機 
能 を 実現 し て いま す . また , 時 と し て Parser は Pixel に 割 
り 込み を か ける 必要 が ある の で す が , これ も TIE ポー ト を 
用 いま し た . 

Pixel に は , Transpose と いう ブロ ッ ク が あり ます . こ 

れ は 特別 な メモ リ ・ ア レイ で , 2 次 元 行列 の 転 置 を 実行 す 
る た め の も の で す . ビデ オ ・ デ ー タ 処理 で は , 2 次 元 行列 
の 演算 が よく 実行 され ます . SIMD 命令 が 威力 を 発揮 する 
わけ で す が , 行 計算 を 実行 し た 後 で 同じ 処理 を 列 に 施 そう 
と する 場合 , データ ・ セ ッ ト を 転 置 する 必要 が あり ます . 
転 置 の た め の 命令 は MMX な ど で も 用 意 さ れ て いる の で す 

が , 意外 と 多く の サイ クル 数 が 必要 で す . 時 と し て 演算 そ 
の も の より 転 置 に サイ クル 数 が 必要 に な る と いっ た 場合 
あり ます . 

設計 し た ビデ オ ・ デ コー ダ で は 当初 , 転 置 を サポ ー ト す 
る 拡張 命令 を 設計 し て いま し た . し か し , 転 置 を 施す 処理 
が 頻繁 に 出 て くる こと か ら , 転 置 を メモ リ 内 で 自動 的 に 行 
える 特殊 な メモ リ ・ ア レイ を 設計 し まし が 図 14). それ を 
TIE キ ュー に 接続 する と , 転 置 に 必要 な サイ クル 数 が ゼロ 
に な り ま す . この メモ リ は 転 置 の みな ら ず , 将来 設計 予定 
の エン コー ダ ・ シ ステ ム に お いて 別 の 機能 を 担う 予定 で す . 

うし た 特別 が メモ リ ・ ユ ニッ ト は , 通常 の メモ リ ・ イ ン 
ター フェ ー ズ キャ ッシュ な ど ) に は 直接 接続 で きま せん が , 
TIE ポー ト , TIE キ ュー・ インター フェ ー ス で あれ ば 接続 
可能 で す . 
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